NeurIPS 2018 | 腾讯AI Lab主导提出可用于预测金融市场风险的低维简约分位数回归框架
感谢阅读腾讯AI Lab微信号第61篇文章。AI领域顶会 NeurIPS 正在加拿大蒙特利尔举办,腾讯AI Lab实验室每日将深度解读一篇入选论文,今天是第5篇。Enjoy!
NeurIPS (Conference on Neural Information Processing Systems,神经信息处理系统进展大会)与ICML并称为神经计算和机器学习领域两大顶级学术会议。今年为第32届会议,将于 12月3日至8日在加拿大蒙特利尔举办。
腾讯AI Lab第三次参加NeurIPS,共20篇论文入选,位居国内企业前列。会议期间,我们选取7篇论文进行深度解读。今天解读论文为:
Parsimonious Quantile Regression of Financial Asset Tail Dynamics via Sequential Learning。
论文链接:
http://papers.nips.cc/paper/7430-parsimonious-quantile-regression-of-financial-asset-tail-dynamics-via-sequential-learning
在这篇由腾讯AI Lab主导,与香港城市大学、香港中文大学合作完成的论文中,作者提出了一种低维简约分位数回归框架来学习证券收益率时间序列的动态重尾行为,用于对金融二级市场(包括股票、外汇、债券、大宗商品等)的波动率预测和尾部风险预测,能在金融机构的风险管理中发挥重要价值。该研究的目的是通过机器学习的方法,从数据中学习得到证券收益率的条件分布随时间演化的行为。我们尤其关注比波动率更高的高阶矩的演化过程和对尾部风险的建模及预测。
传统的金融理论采用波动率来度量风险,并且收益与风险总是权衡存在。但实证经验表明,证券收益率并非高斯分布,而是具有明显的不对称性和重尾特性。金融机构需要用尾部风险来度量重大亏损发生的可能性和严重程度。对尾部风险的准确预测涉及到银行的最低资本要求,金融中介的抵押或保证金要求,基金经理的对冲需求等。在大型金融机构中,管理者用在险价值VaR来度量尾部风险,即左尾分位数,如0.01-分位数、0.05-分位数等。
传统的模型如GARCH模型族在预测分位数时并不假设重尾程度随时间变化,而仅仅只有波动率随时间变化。分位数的动态演化特性完全来自于波动率聚集现象。这样的假设以及线性自回归的模型设置,并不一定与真实的数据相符合。我们提出一种完全由数据驱动的机器学习方法,它结合了一种新构建的新颖的用来表示未来收益率分布的参数化分位数函数,和当前流行的序列神经网络模型 LSTM。
具体来说,为了建模不对称重尾分布,我们定义了一种新颖的参数化分位数函数:
其基于标准正态分布的分位数函数。它只有四个参数,分别用来控制位置、尺度、右重尾、左重尾。它的Q-Q plot具有灵活可变的倒S形:
这样就不会有参数化概率密度函数方法的复杂性问题,像数学上很复杂的Skewed Generalized T Distribution。我们用此分位数函数来表示t时刻的资产收益率的条件分布,并将其对历史信息的依赖通过一个LSTM单元来建模,如下图所示:
其中,
是我们构建的特征向量序列,被用作LSTM单元的输入。而且,我们只用到了LSTM的最后一个隐藏状态向量。LSTM能完全以数据驱动的方式抓住时间序列的条件依赖关系,并且是非线性的和长时记忆的。我们的模型通过分位数回归来进行训练:
上式中L是分位数损失函数。对比传统的分位数回归,我们的方法不会导致分位数交叉,也节省了很多参数。
对股票、外汇、债券、大宗商品四大类19种资产(长达30-60年的数据)的实证研究表明,该方法的重要特点是能提取存在于数据中的条件分位数函数的非线性演化过程。进一步分析表明,现实中很可能存在驱动高阶矩演化的风险因子,但其又独立于随机波动率中的风险因子。而且,对比实验表明,我们提出的模型在测试集上的分位数预测表现优于 GARCH 模型族。下表中是各种模型在测试集上的分位数损失函数值,其中(a)用了21个概率水平上的分位数(均匀分布于(0,1)),(b)用了0.01,0.05,0.1这三个概率水平上的分位数,即常用的VaR。
精彩解读回顾